1.3 网页数据抓取

网络爬虫工具：
- curl：适用于linux，但是网站持有人使用不同方法来区分你是人或者机器。如果是机器，就返回404不让你抓取
- headless 浏览器：用命令行，而不是网页浏览器
- 用很多个ip来抓取网页：ipv4地址中，AWS,Azure和Gcp都有很多ip
总结：
- 网络爬虫是一个强大的工具去抓取数据
- 用云可以用大量ip帮你同时抓取一些数据
- 使用浏览器的视察工具去定位HTML里的信息
- 使用谨慎，规避法律风险

References